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摘 要 : 面向 聚 类 的 数据 隐藏 通常 使 用 数据 扰动 技术 防止 敏感 信息 泄露 。 针 对 现 有 的 面向 聚 类 的 数据 扰动 方法 隐私 保 
护 度 低 的 问题 ， 提 出 一 种 基于 平面 反射 的 数据 扰动 方法 ， 将 发 布 对 象 的 全 部 属性 两 两 配对 构成 平面 上 的 点 ， 再 随机 选 
择 一 条 直线 ， 作 每 对 属性 关于 直线 的 对 称 点 ， 转 换 后 的 数据 即 为 发 布 的 数据 。 实 验 结果 表明 ， 这 种 方法 具有 较 好 的 隐 
私 保护 度 和 聚 类 可 用 性 ， 且 对 高 维 数据 有 良好 的 适应 性 。 
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Planar reflection method of data perturbation for clustering 
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Abstract: Data hiding for clustering usually uses data perturbation technology to prevent sensitive information disclosure. In 
order to solve the problem that the privacy protection of existing data-perturbation method for clustering is low, this paper 
proposes a data perturbation method based on plane reflection. All the properties of the published object are paired to form the 
points on the plane, then randomly select a straight line for each pair of symmetry points on the line, so the converted data is the 
data to be published. The experimental results show that this method has good privacy protection and clustering usability, and 
has good adaptability to high dimensional data. 
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数据 可 用 性 降低 。 相 比 之 下 ， 扰 动 通过 修改 原始 数据 ， 并 尽 可 

能 保留 原始 数据 的 特征 ， 扰 动 后 不 仅 保护 了 数据 隐私 ， 还 能 维 

随 着 电子 政务 和 电子 商务 的 发 展 ， 个 人 数据 在 线 交 换 不 断 ” ” 持 数 据 集 的 可 用 性 ， 更 适用 于 数据 挖掘 。 
增长 ， 使 数据 收集 变 得 越 来 越 容易 。 数 据 挖掘 者 能 从 庞大 的 数 姑 此 ， 数 据 扰动 方法 被 广泛 用 于 面向 聚 类 的 隐私 保护 中 。 
据 中 提取 许多 有 价值 的 信息 ， 为 广泛 的 应 用 提供 支持 。 然 而 ， 现 有 面向 聚 类 的 扰动 大 多 采用 平移 、 缩 放 和 旋转 几何 数据 转换 
这 会 引起 个 人 隐私 泄露 和 用 户 安全 受到 威胁 的 问题 。 因 此 ， 为 ”方法 ， 存 在 几何 数据 变换 函数 是 可 逆 的 缺点 ， 会 导致 处 理 后 的 
了 防止 数据 挖掘 者 收集 大 量 隐私 数据 后 泄露 隐私 信息 ， 必 须 对 ”数据 隐私 保护 级 别 太 低 四。 针对 该 问题 ， 本 文 提出 基于 平面 反 
原始 数据 进行 处 理 。 射 的 数据 扰动 方法 ， 不 仅 提高 了 隐私 保护 水 平 ， 还 保留 了 良好 
数据 匿名 通过 更 改 或 模糊 化 原始 数据 方式 更 改 或 发 布 , 改 ”的 数据 特征 ， 更 有 利于 聚 类 分 析 。 
变 后 的 数据 即使 与 其 他 信息 结合 ,也 不 能 推理 出 任何 关键 信息 。 本 文 的 主要 贡献 如 下 :a) 提 出 一 种 新 的 数据 扰动 方法 , 利 | 
Sweeney 由 首先 提出 左 匿 名 隐私 保护 模型 , 它 的 基本 思想 是 发 布 。” 平面 反射 改变 原始 数据 ， 将 发 布 对 象 的 全 部 属性 两 两 配对 构成 
用 户 信息 的 时 候 ， 用 户 的 真实 信息 不 能 从 k-1 个 用 户 中 区 分 出 。 平面 上 的 点 ， 再 随机 选择 一 条 直线 ， 作 每 对 属性 关于 直线 的 对 
来 。 后 续 基于 大 匿名 模型 的 各 种 隐私 改进 原则 ， 提 出 tt 称 点 , 可 以 隐藏 敏感 信息 , 保护 数据 隐私 ;b) 用 理论 证 明了 本 文 
closeness[2 ，(c， 站 -diversityB]，Hybrid k-anonymity[ 呈 等 模型 。 并 提出 的 方法 是 一 种 完全 保 距 变 换 ， 扰 动 后 的 数据 保持 着 良好 的 
在 不 同 的 隐私 保护 领域 广泛 应 用 ， 如 数据 挖掘 中 四 和 位 置 服务 ，” 聚 类 可 用 性 ;c) 采用 真实 数据 集 ， 从 隐私 保护 度 和 运行 时 间 两 
中 外。 然而 , 经 过 匿名 化 处 理 后 , 会 造成 不 同 程度 的 信息 损失 ， 个 方面 进行 了 实验 与 分 析 , 结 果 表 明 提出 方法 隐私 保护 度 较 好 ， 
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对 高 维 数据 有 良好 的 适应 性 和 高 效 性 。 


1 ”相关 工作 


为 了 保护 用 户 的 敏感 信息 ， 研 究 者 提出 了 不 同 的 数据 扰动 
方法 。 黄 茂 峰 等 人 多利 用 对 数 螺 线 的 几何 性 质 ， 对 原始 数据 进 
行 扰动 ， 能 够 有 效 的 保护 数据 隐私 ， 但 是 这 种 方法 所 选择 的 投 
影子 集 分 割 范围 较 小 ， 对 低 维 数据 点 进行 扰动 时 ， 隐 私 保护 强 
度 不 高 。Guang 等 人 中 利用 奇异 值 分 解 方法 ， 对 不 同 的 样品 数 
据 进行 不 同 程度 的 扰动 ， 代 蔡 原 始 数据 ， 这 种 方法 有 效 的 平衡 
了 数据 隐私 与 数据 的 可 用 性 ， 但 只 能 用 于 分 类 问题 ， 而 数据 挖 
掘 是 不 限于 分 类 的 。 为 了 提供 云 服务 中 的 范围 查询 和 KNN 查 
询 服务 数据 安全 和 保护 ，Xu 等 人 09 提 出 一 种 随机 空间 扰动 的 
数据 扰动 方法 ， 然 而 ， 这 种 方法 专门 用 于 扰乱 云 服务 中 上 传 的 
数据 ， 将 用 户 的 数据 安全 保存 在 云 数 据 库 中 。 

几何 数据 转换 方法 是 面向 聚 类 的 数据 扰动 常用 方法 。 
Oliveira 等 人 利用 平移 、 缩 放 和 旋转 转换 方法 ， 实 现 对 数 
值 数据 聚 类 隐私 保护 。 这 种 方法 可 用 于 低 维 数据 和 高 维 数据 ， 
算法 的 复杂 度 低 , 可 扩展 性 强 , 但 是 隐私 保护 度 较 低 。Rajalaxmi 
等 人 0 提出 基于 几何 数据 变换 混合 数据 转换 方法 ， 对 每 个 敏感 
属性 从 平移 、 缩 放 和 旋转 方法 中 随机 选择 两 种 进行 操作 ， 以 满 
足 隐私 保护 要 求 ， 保 持 一 般 聚 类 分 析 功 能 ， 但 是 这 种 方法 主要 
解决 分 类 中 的 聚 类 隐私 保护 问题 。 王 静 等 人 0 提出 了 一 种 基于 
二 次 反射 的 数据 转换 方法 (DRDP), 采用 沿 着 对 称 轴 反 射 的 方法 ， 
得 到 新 的 点 坐标 ， 转 换 后 的 数据 与 原始 数据 相差 较 大 ， 但 是 原 
始 数据 很 容易 被 还 原 。Giannella 等 人 05 指 出 当 已 知 的 原始 数据 
元 组 少 于 数据 维 数 时 ， 攻 击 者 只 要 有 一 组 已 知 的 原始 数据 元 组 
(或 输入 )， 做 很 少 的 工作 就 能 导致 原始 数据 的 泄露 。 
目前 ， 国 内 外 针对 基于 平面 反射 数据 扰动 方法 的 研究 也 取 
得 了 较 好 的 效果 .Achlioptas09 提 出 基于 随机 映射 的 数据 转换 方 
法 ， 通 过 乘 以 随机 算 阵 来 扰动 ， 达 到 隐私 保护 的 目的 ， 但 是 该 
方法 聚 类 结果 高 度 不 确定 ， 且 只 适用 于 高 维 数据 的 聚 类 。 
Oliveira 和 Zaianel11 利 用 旋转 的 数据 转换 方法 ， 将 数据 集 的 所 
有 属性 两 两 分 组 ， 当 属性 数目 为 奇数 时 ， 将 剩余 的 那个 属性 与 
己 扰 动 的 某 个 属性 组 合 在 一 起 ， 每 个 属性 对 对 应 一 个 n*2 的 矩 
阵 ， 将 其 乘 以 一 个 变换 矩阵 ， 从 而 实现 对 隐私 数据 的 保护 ， 但 
是 这 种 方法 攻击 者 只 要 利用 和 矩阵 的 某 些 理论 性 质 ， 就 可 以 公开 
原始 数据 值 。 王 静 和 汪 晓 刚 鸣 提出 一 种 基于 二 次 反射 的 数据 转 
换 方法 ， 取 敏感 属性 最 大 值 和 最 小 值 之 和 的 平均 值 向 下 取 整 得 
到 的 数值 作为 对 称 轴 ， 沿 着 对 称 轴 进 行 反射 得 到 新 的 坐标 点 ， 
但 是 这 种 方法 原始 数据 很 容易 被 还 原 。 刘 杰 等 ("提出 了 一 种 基 
于 平面 反射 几何 数据 转换 方法 ， 将 发 布 对 象 的 属性 两 两 配对 构 
成 平面 上 的 点 ， 当 属性 数目 为 奇数 时 ， 将 剩 下 的 一 个 未 配对 的 
属性 与 一 个 已 配对 的 属性 进行 配对 ， 然 后 作 关 于 一 条 直线 的 平 
面 反射 ， 但 是 它 只 对 低 维 数据 进行 研究 ， 并 未 涉及 高 维 数据 。 
在 许多 情况 下 ， 攻 击 者 没有 任何 先 验 知识 似乎 是 不 合理 的 
腿 设 ， 因 此 ， 现 有 的 面向 聚 类 扰动 方法 大 多 数 具 有 隐私 保护 度 


到 


一 信 


氏 的 缺点 。 本 文 提 出 的 基于 平面 反射 数据 扰动 方法 ， 通 过 一 些 
属性 随机 生成 ， 所 有 属性 随机 两 两 配对 ， 再 经 过 任意 一 条 直线 
的 反射 ， 对 原始 数据 进行 扰动 ， 即 使 攻击 者 获得 任意 一 组 已 知 
的 原始 数据 元 组 ， 也 不 会 导致 原始 数据 的 泄露 ， 因 此 ， 本 文 提 
出 的 方法 可 以 实现 更 高 的 隐私 保护 度 。 


于 


2 ”预备 知识 


2.1 基本 概念 

定义 1 反射 9。 设 ! 是 平面 上 的 一 条 定 直线 ,平面 上 任 
意 一 点 p 关于 1 对 称 点 为 p。 从 点 p 以 1 为 轴 映 射 到 另 一 点 p'， 
这 种 映射 是 平面 上 以 7 为 轴 的 反射 。 
反射 具有 两 个 基本 特征 : a) 点 p 与 p' 连 线 的 中 点 在 直线 / 
上 ;b) 点 p 与 p 连 线 的 斜率 与 直线 1 的 斜率 的 乘积 为 -1。 

定义 2 ”变换 08。 把 平面 中 的 每 一 个 点 ， 变 成 和 它 同一 个 
平面 内 相应 的 唯一 点 ， 并 且 平 面 中 的 每 一 个 点 都 是 由 相应 的 某 
一 个 点 变换 的 ， 把 这 种 平面 中 点 的 位 置 变化 称 作 平面 中 一 个 点 
的 变换 。 

定义 3 保 距 变换 4。 如 果 一 个 变换 《〈 记 为 ) 把 任意 的 


两 个 点 4、B 变 成 4、B'， 使 4(f(A4),f(B))=a(4,B)， 则 这 


个 变换 具有 保 距 性 ， 称 为 保 距 变 换 。 即 经 过 变换 ， 使 任意 两 个 
原 象 之 间 的 距离 与 转换 后 相对 应 的 两 个 象 之 间 的 距离 相等 。 


定理 1 从 点 P(X,Y) 到 点 p (X,Y ) 的 映射 5 ，5 在 平面 


直角 坐标 系 下 表达 式 为 
X =aiX+W 了 + 已 
Y = X+C7 了 + 包 


(1) 


下 | 各 | 是 下 交 外 车 ， 那 么 映射 5 为 保 距 变换 。 


1 022 


证 明 ” 设 点 M( 马 艺 ) ，N( 和 , 怠 ) 是 平面 上 的 任意 两 点 ， 


他 们 关于 映射 5 的 对 称 点 分 别 为 M (Xi,) ，N( 和 ,号 ) 。 


由 式 (1) 可 知 : 
[i 
六 一 六 Ci a»l Y-b 
由 欧 氏 距离 得 : 
i 位 4 Eh A 及 ,三 豆 。 
ep -Cx | (3) 


式 (2) (3) 得 


IN| =-(X XP -| “Ee | 
Ci ao | 五 一 到 


=(X _x 7-&) Qi 02 " a aa | X,—X, 04) 
| 0 a dy)| La ao | 一 六 


-luw 
对 此 ， 定 理 1 中 映射 5 为 保 距 变换 。 
定理 2 反射 变换 是 保 距 变换 。 
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证 明 设 直线 方程 为 了 = KX +bp， 任 意 一 点 M(X,7) 关于 


直线 的 对 称 点 为 M (X ,了 ) 。 根 据 反射 的 两 个 基本 特征 得 如 下 


方程 : 

了 十 了 _ 从 十 区 了 

2 2 (5) 
Y-Y 1 
X-X 大 

式 57 得 
1 一 好 2 大 2kb 
1+k? a 1+k? 
(6) 


2_ 
y' = a 大 ly 2 
1+k 1 十 大 1 十 大 


了 


1 一 大 2k 1—k? 2k 

因为 |1+tk 1+k 1+tk 1+k? 
2k 大 一 1 2k k*—1l 

+ tl 14& 


lk 2k | 
os 1 | 是 正 交 答 阵 ,根据 定理 1， 该 变换 是 保 距 变 斤 ， 
2 一 1 
1+ 有 2 1+k’] 


2.2 聚 类 的 可 用 性 


时 针 方向 旋转 ， 负 值 则 是 绕 旋转 点 的 顺 时 针 旋 转 。 
dj) 混合 数据 转换 是 指 对 发 布 对 象 的 多 个 敏感 属性 任意 选取 


平移 、 缩 放 和 旋转 等 不 同方 式 的 变换 ， 噪 声 项 是 常数 或 旋转 角 


度 g。 


6) 二 次 反射 转换 是 指 沿 着 对 


标点 。 所 育 


二 次 反射 是 指点 的 横 坐 标 和 纵 坐 标 都 进行 了 反射 ， 
即 属性 对 同时 进行 反射 。 设 发 布 对 象 中 共有 对 敏感 属性 ，OP 
表示 反射 操作 ，a (1<i<n) 是 发 布 对 象 的 任意 敏感 属性 ， 对 称 


> 


称 轴 反 射 的 方法 ， 获 得 新 的 坐 


轴 取 该 a 的 最 大 值 与 最 小 值 之 和 的 平均 值 向 下 取 整 得 到 的 数 


值 。 对 敏感 属性 a 进行 OP 操作 ， 就 是 将 a 沿 着 对 称 轴 进 行 反 
射 。 
下 面 把 几何 数据 转换 各 种 方法 分 别 定义 了 统一 噪声 矢量 ， 
具体 说 明 如 表 1 所 示 。 
表 1 定义 统一 噪声 矢量 
数据 转换 方法 统一 噪声 矢量 
平移 (<add， 常 数 1>，<add， 常 数 2>) 
缩放 (<mult， 常 数 1>，< mult， 常 数 2>) 
旋转 (<rotate, @ >) 
混合 数据 转换 (<mult， 常 数 1>，<add， 常 数 2>) 
二 次 反射 转换 (<a, OP >) 


3 ”基于 平面 反射 数据 扰动 方法 


本 文 提 出 的 基于 平面 反射 数据 扰动 方法 ， 通 过 把 原始 数据 


对 称 点 ,以 此 对 原始 数 所 


在 聚 类 挖掘 时 ， 通 过 分 析 聚 类 数据 记录 之 间 的 相似 性 和 聚 
类 外 部 的 相 异 性 来 划分 聚 艇 。 其 中 ， 在 聚 类 分 析 中 ， 距 离 是 用 
来 衡量 数据 记录 之 间 的 相似 或 相 异 的 常用 工具 。 如 果 一 个 数据 。” 集 的 全 部 
集中 的 任意 两 个 数据 记录 修改 前 后 距离 关系 保持 不 变 ， 就 可 以 
实现 良好 的 聚 类 可 用 性 。 面 向 聚 类 的 数据 隐藏 为 了 维持 较 高 聚 。” 实现 隐私 
类 可 用 性 ， 需 要 保证 修改 前 的 数据 集 和 修改 后 的 数据 集 具有 尽 。 ”出 真实 和 
可 能 相似 的 聚 簇 结 构 和 特征 ， 并 且 应 该 保持 数据 集 内 的 每 个 数 。” 原始 数 提 
据 记 录 修 改 前 后 的 聚 簇 标志 尽 可 能 不 改变 。 本 文 提出 的 基于 平 ”3.1 基本 思路 
面 反射 的 数据 扰动 方法 完全 是 一 种 保 距 变换 ， 因 此 聚 类 可 用 性 首先 
好 ， 不 影响 数据 挖掘 结果 的 准确 性 。 任意 选择 
2.3 几何 数据 转换 方法 的 数据 即 


几何 数据 转换 是 基于 图 形成 像 原理 ， 通 过 平移 、 缩 放 、 旋 


a) 将 发 布 对 象 的 所 有 属性 


属性 随机 配对 ， 然 后 任意 选择 一 条 直线 作 每 对 属性 的 
昌 进 行 修改 ,从 而 把 敏感 信息 隐藏 起 来 ， 
保护 。 同 时 攻击 者 无 法 根据 扰动 后 的 数据 恢复 或 重 构 


完整 的 原始 数据 ， 但 是 从 扰动 后 的 数据 中 可 以 得 到 与 


聚 类 相同 的 信息 ， 从 而 保持 数据 聚 类 可 用 性 不 变 。 


将 发 布 对 象 的 全 部 属性 


一 条 直线 ， 作 每 对 属性 关于 该 直线 的 对 称 点 ， 转 换 后 


两 配对 构成 平面 上 的 点 ， 是 


A 
ol 


区 


为 要 发 布 的 数据 ， 具 体 


方法 概述 如 下 : 


转 和 反射 等 方式 对 原始 数据 进行 扰动 来 隐藏 敏感 数值 属性 ， 同 
时 保留 原始 属性 的 特征 。 

a) 平 移 是 指 在 同一 个 平面 内 ， 把 一 个 图 形 上 的 所 有 位 置 华 
标点 沿 着 某 一 方向 移动 相同 的 距离 ， 即 对 发 布 对 象 的 每 个 敏感 
属性 使 用 加 法 噪声 扰动 ， 使 用 的 噪声 项 是 常数 且 可 以 是 正 的 或 
负 的 。 

b) 缩 放 变换 常用 于 改变 图 形 的 尺寸 ， 即 对 发 布 对 象 的 每 个 
敏感 属性 使 用 乘法 噪声 扰动 ， 使 用 的 噪声 项 也 是 常数 且 可 以 是 
正 的 或 负 的 。 

0) 二 维 旋转 是 将 图 形 沿 着 xy 平面 内 的 圆 弧 路 径 重 新 定位 ， 
即将 发 布 对 象 的 全 部 属性 随机 配对 ， 配 对 后 构成 的 点 为 旋转 点 
的 位 置 。 噪 声 项 是 旋转 角度 g ， 旋 转角 的 正 值 为 绕 旋转 点 的 逆 


发 布 对 象 
成 一 组 与 


b) 手 动 随机 设 


所 拥有 的 属性 数目 为 偶 


两 配对 构成 平面 上 的 点 ， 如 果 


发 布 对 象 属性 数目 相同 


数 直 接 两 两 配对 ， 否 则 随机 生 
的 数据 ， 然 后 再 两 两 配对 。 


直线 的 斜率 和 截 距 ， 产 生 一 条 直线 ， 然 后 


根据 式 (5) 解 得 的 等 式 〈6) 将 配对 后 的 每 对 属性 作 关 于 直线 


的 对 称 点 


0) 发 布 的 数 扩 
3.2 算法 实现 
提出 的 基于 平面 反射 数据 扰动 算法 详细 描述 如 下 。 其 


本 文 
中 ,DD 


mMm*n 


原始 数据 


o 


表示 原始 数据 集 ， 
集 数据 实例 的 个 数 ， 


昌 即 为 转换 后 的 数据 。 


表示 转换 后 的 数据 集 ，m 表示 
表示 原始 数据 集 属性 的 个 数 。 


设 直 线 的 斜率 为 x， 直线 的 截 距 为 5b。 


算法 : 基于 平面 反射 的 数据 扰动 方法 


ChinaXiv 合 作 期 刊 
录用 稿 汪 小 寒 ， 等 : 面向 聚 类 的 平面 反射 数据 扰动 方法 


输入 : 原始 数据 集 D,,， 表 2 原始 数据 
输出 : 转换 后 的 属性 集 D 


1) get D, 


Wiis Index Area (km’) Population (人 ) Population density (人 /km2)) 
; // 读 取 原 始 数据 身 


7 


mn 1 6911 7696000 1113.6 
2) If(n%2 一 0) /判断 属性 数目 是否 为 偶数 3 有 ed 1090.4 
3) temp_n=n; // 将 属性 数目 值 暂 存 于 temp_n 中 3 5952 3258000 547.4 
4) El 
) Else 4 2526 2375000 940.2 
5) ”temp_n=n+1; // 属 性 数目 加 1 和 4049 2229000 550 5 
6) end if 6 2802 2159000 770.5 
7) producepq ( ); /随机 产生 属性 对 1 et 663.1 
8) for each Disimes E Dwiemp n // 每 个 数据 实例 
8 15329 5376000 350.7 
9) If (times<temp_n) // 随 机 生成 一 个 数据 
10) data.push back (DJ); 表 3 转换 后 数据 
11) ++times; Index Area (km’) Population (人 ) Population density (人 /km2) 
12) Else 1 1887700 7460900 3013.46 
13) times=0; 2 887121 3506520 1672.5 
14) data.push_back (rand ( )); 3 796198 3159220 2394.98 
15) endif 4 582165 2302550 533.16 
16) for each attributes (X， 了 Y) // 每 对 属性 进行 转换 5 544750 2161410 1395 3 
17) 四 os 2 y 2 ， 6 528728 2093260 3282.99 
1+K lt+k 1+k 7 180580 715567 7355.58 
18) y -站 -EE le 8 1308460 5214360 2963.72 
re HE +R 
19) end for 
4 ”实验 与 分 析 
20) end for 
21) Output D,,,; 实验 环境 为 处 理 器 InteltDCoreTM i5-6300HQ， 内 存 4GB， 


现 举例 说 明 上 述 的 算法 的 转换 结果 ， 表 2 为 原始 数据 ， 表 ”操作 系统 Windows 10， 程 序 编译 环境 Visual Studio community 
3 为 转换 后 的 数据 。 表 2 是 由 2014 年 全 省 县 级 常住 人 口 调查 主 2015 。 实 验 的 数 据 选 自 ”DIM-sets(high) 
要 数据 公报 得 到 的 安徽 省 16 个 市 县 的 部 分 区 域 数 据 。 其 中 ， (http://cs.joensuu.fi/sipu/datasets/〉 中 的 聚 类 数据 集 ，DIM-sets 
Index 表示 序列 号 ，Area 表示 每 个 市 县 的 占 地 面积 ，Population ”(high) 是 合成 的 数据 ， 拥 有 6 个 高 维 数据 集 ， 维 数 分 别 是 32、 
表示 各 个 市 县 年 末 常 住人 口 的 数量 ，Population density 表示 各 ”64、128、256、512、1024， 除了 维 数 256 的 数据 集 数据 数量 是 
个 市 县 的 人 口 密度 。 算 法 过 程 如 下 。 1020， 其 他 维 数 的 数据 数量 均 为 1024。 实 验 结果 至 少 测试 6 遍 
首先 ，1~7 行 ， 由 于 发 布 对 象 的 属性 (Area、Population、 以 上 取 测 试 平均 值 求 得 。 主 要 从 隐私 保护 度 和 运行 时 间 两 个 方 
Population density) 数目 为 奇数 ， 因 此 ， 将 属性 数目 加 1， 对 属 面 来 分 析 算 法 的 性 能 。 
性 进行 编号 ， 随 机 组 成 属性 对 ， 属 性 组 的 选取 为 : (Area， 4.1 隐私 保护 度 
Population )，(Population density, random attribute ); 然后 , 8~15 数据 扰动 后 ， 可 以 通过 计算 原始 属性 值 与 扰动 后 的 属性 值 
行 ， 读 取 表 2 中 发 布 对 象 的 每 个 数据 实例 ， 并 随机 生成 一 个 属 之 间 的 差异 来 评估 隐私 保护 安全 程度 09， 可 以 描述 为 : 
性 数据 ; 最 后 ，16~20 行 ， 按 照 选择 的 属性 配对 方式 ， 随 机 选 
取 大 8，20=10 来 对 每 对 属性 进行 平面 反射 数据 转换 。 转 换 后 的 


TH 


S$=Var(X—X)/Var(X)= op x) /ot (o 是 方差 函数 )。 其 中 ， 


数据 如 表 3 所 示 ，21 行 输出 即 为 最 终 要 发 布 的 数据 。 Var(X x) 的 值 越 小 ,扰动 前 后 的 属性 值 越 接近 ， 反之 扰动 前 
3.3 ”算法 复杂 度 分 析 后 的 属性 值 差别 越 大 。 
在 基于 平面 反射 数据 扰动 方法 中 ， 步 又 a) 时 间 复 杂 度 为 


针对 不 同 维度 的 数据 隐私 度 的 定义 为 5 = 宇 3 fn， 其 
O(n) ,步骤 b) 时 间 复 杂 度 为 O(m*n) ， 所 以 总 的 时 间 复 杂 度 jn 


为 O(m*n)。 算 法 空间 开销 最 大 的 是 对 发 布 对 象 的 所 有 属性 进 ” 中 , n 表示 数据 集 维度 个 数 ， 当 数据 集 是 单 维度 时 ，S =s。s 
行 随机 配对 ， 需 要 开辟 额外 O(n) 的 内 存 空 间 来 存储 配对 好 的 。” 越 大 ， 扰 动 前 后 数据 集 的 属性 值 差 别 越 大 ， 隐 私 保护 安全 度 越 
数据 ， 因 此 算法 的 空间 复杂 度 为 O(n) 。 


A 
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zo 


o 


表 4 给 出 了 当 直 线 斜率 和 直线 截 距 bp 取 值 不 同时 ， 第 1 


201804.01419v1 
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录用 稿 
维 、 第 2 维和 第 5 维 数据 的 隐私 保护 度 。 
表 4 隐私 保护 度 

序号 大 bp Var (第 1 维 ) Var (第 2 维 ) Var (第 5 维 ) 
1 1 0 1.0020 1.3850 1.8901 
2 1 43000 1.0020 1.3850 1.8362 
3 1 -43000 1.0020 1.3850 2.0293 
4 2 43000 2.5600 1.5097 2.0204 
5 5 43000 3.6994 1.7621 1.8499 
6 -5 43000 3.6985 2.2379 2.1788 
7 50 43000 3.9968 1.9753 1.5996 
8 -50 43000 3.9968 2.0244 2.2096 
9 500 43000 0.0000 1.9976 1.7995 
10 -500 43000 0.0000 2.0024 2.5574 
11 50000 43000 4.0000 2.0000 1.8000 


数据 很 容易 被 还 原 。 以 上 分 析 可 知 ， 几 何 数据 转换 的 这 些 方法 


的 隐私 保护 度 非 常 低 ， 其 中 DPDR 方法 在 列 出 的 五 种 方法 中 隐 
私 保护 度 最 好 。 列 出 的 五 中 方法 中 ， 只 要 攻击 者 获得 任意 一 个 


敏感 属性 数据 ， 用 户 的 敏感 属性 就 会 被 泄露 ( 习 ， 而 本 文 方法 所 
有 属性 两 两 配对 具有 随机 性 ，b 值 和 k 值 的 选取 也 是 随机 的 ， 
于 随机 不 确定 性 无 法 还 原 ， 即 使 攻击 者 获得 任意 一 个 敏感 属 
性 对 ， 也 不 会 泄露 用 户 的 全 部 敏感 属性 。 表 4 也 显示 该 方法 基 
本 不 受 b 值 和 k 取 正 值 或 负 值 干扰 ， 且 随 着 数据 维度 的 增加 ， 
数据 隐私 保护 度 越 稳定 ， 本 文 提出 的 方法 具有 更 好 的 隐私 保护 
度 。 

4.2 配对 方式 对 隐私 保护 度 和 运行 时 间 的 影响 

本 节 验 证 发 布 对 象 的 属性 之 间 不 同 的 配对 方式 对 隐私 保护 
度 和 运行 时 间 的 影响 。 选 用 属性 为 6 和 数据 记录 数量 是 1000 的 
数据 集 ， 对 所 有 属性 随机 配对 会 产生 不 同 的 配对 方式 ， 本 次 实 


分 析 表 4， 从 1~3 行 可 知 ， 隐 私 保护 度 几 乎 不 受 2 取 值 的 


任何 影响 ， 因 为 尺 值 的 改变 相当 于 对 直线 作 平移 ， 即 对 原始 属 


验 只 选取 了 部 分 配对 方式 ， 实 验 结果 如 表 6 所 示 。 
表 6 不 同 的 配对 方式 下 隐私 保护 度 和 运行 时 间 的 结果 


序号 。 配对 方式 隐私 保护 度 。 运行 时 间 

性 值 作 平移 。 因 此 ，5 值 的 随机 选取 有 利于 提高 隐私 保护 度 。 ee 00 ee 
7-10 行 可 以 看 出 ,上 取 正 值 或 负 值 对 隐私 保护 度 的 影响 不 大。 ，。 awe3 ng ee 
1、4、5、7、9 和 11 行 可 以 看 出 ， 随 着 大 值 的 增加 ,第 1 维  ， a 本 人 

的 隐私 保护 度 先 增加 再 急速 减少 最 后 又 急速 增加 ， 第 2 维 的 隐 4 daonGa 

私 保护 度 逐 渐 缓慢 增加 , 第 5 维 的 隐私 保护 度 围绕 18000 上 下 oan a pa 

波动 ， 由 此 可 见 ， 随 着 数据 维 数 的 增加 数据 隐私 保护 度 适应 性 6。 wa se4 pm 了 

越 好 ， 即 对 高 维 数据 有 良好 的 适应 性 。 en 有 了 
表 5 是 几何 数据 转换 各 种 方法 ， 即 平移 (TDP) [中 缩放 oa0Daa oe a 

(SDP) 0234、 旋 转 (RDP) 0、 混合 数据 转换 CHDP) 0 和 基 

于 二 次 反射 的 数据 转换 方法 (DRDP) 04, 噪声 矢量 取 不 同 值 ， 从 表 6 可 以 看 出 ， 有 七 种 配对 方式 且 每 种 配对 方式 的 隐私 

第 1 维 、 第 2 维和 第 5 维 数据 的 隐私 保护 度 的 变化 结果 。 保护 度 都 不 相同 ， 表 明 不 同 的 配对 方式 隐私 保护 度 不 同 。 从 1 

表 5 隐私 保护 度 的 比较 和 2 行 3 和 4 行 ， 以 及 5 和 8 行 可 知 ， 不 同 的 配对 方式 运行 

人 时 间 可 能 相等 。 从 6 和 7 行 可 知 ， 即 使 配对 方式 相同 ， 运 行 时 
络 换 法。 。。 凤 声 矢量 ,第 1 级 ) (第 2 维 ) (第 5 纹 ) 间 也 可 能 不 同 。 因此， 算法 的 运行 时 间 不 受 配对 方式 的 影响， 
0 而 隐私 保护 的 强度 却 受 配对 方式 的 影响 ， 同 时 配对 方式 的 多 样 
ER 性 ， 可 以 更 好 的 保护 隐私 信息 。 


SDP (<mult,l.01>,<mult,0.99>) 0.0001 0.0001 0.0001 


SDP (<mult,100>,<mult,0.01>) 9801 4900.99 5580.992 
RDP ( <rotate,50>) 0.0012 0.07 0.05786 
RDP ( <rotate,-50>) 3.3822 3.6744 3.5896 
HDP (<mult,0.5> ,<add,2>) 0.25 0.125 0.15 
HDP (<mult,100>,<add,2>) 9801 4900.5 5880.6 
DRDP (<a,, OP >) 4 4 4 
分 析 表 5 可 知 , 对 于 TDP 方法 , 经 过 它 变 换 的 属性 值 看 起 
来 与 原始 属性 值 很 相近 ， 但 隐私 保护 度 几 乎 为 0。 对 于 SDP、 


RDP 和 HDP 方 法 ,它们 的 隐私 保护 度 会 随 着 噪声 矢量 的 选取 ， 


而 急剧 变 
反射 的 数 


化 ， 因 此 隐私 保护 度 不 稳定 ， 而 DPDR 方法 采用 二 次 
据 转换 方法 ， 在 隐私 保护 度 上 有 很 大 改进 ， 但 是 原始 


4.3 不 同 维 数 下 运行 时 间 的 对 比 

为 了 验证 维 数 对 运行 时 间 的 影响 , 实验 中 分 别 选 择 2、32、 
128、700、850 和 1024 维 数据 集 ， 每 个 数据 集 分 别 在 数据 记录 
数量 为 500、1000、1500、2000、2500 和 5000 下 进行 实验 ， 算 
法 的 运行 时 间 在 不 同 维度 下 随 着 数据 记录 数量 增加 的 比 对 结果 
如 图 1 所 示 。 

分 析 图 1 可 知 ， 当 数据 记录 数量 一 定时 ， 运 行 时 间 随 着 数 
据 集 维 数 增加 而 增加 ， 曲 线 趋 近 于 线性 变化 状态 ， 时 间 复 杂 度 
较 低 , 对 高 维 数据 具有 良好 的 适应 性 ,算法 具有 较 好 的 稳定 性 。 
从 图 中 可 以 看 出 ， 在 1024 维 、5000 条 记录 的 数据 集 下 ， 运 行 
时 间 是 160 多 秒 ， 算 法 性 能 很 高 。 是 由 于 发 布 对 象 的 属性 数目 
是 偶数 时 ， 直 接 对 每 个 属性 进行 编号 并 两 两 配对 ， 读 取 属 性 数 
据 和 平面 反射 转换 同步 进行 ; 当 发 布 对 象 的 属性 数目 是 奇数 时 ， 
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录用 稿 汪 小 寄 ， 等 : 面 同 聚 类 的 平面 反射 数据 护 动 方法 
先 将 属性 数目 加 1， 再 对 每 个 属性 进行 编号 ， 然 后 对 编号 进行 ” 有 良好 的 适应 性 ， 但 是 该 方法 仅仅 用 于 处理 数值 型 属性 ， 并 没 
随机 配对 ， 其 中 ， 读 取 发 布 对 象 的 属性 数据 和 随机 生成 一 个 属 ”有 对 其 他 数据 类 型 属性 进行 研究 。 
性 数据 ， 以 及 每 对 属性 进行 平面 反射 数据 转换 均 同 步 进行 。 本 文 随机 选择 发 布 对 象 的 所 有 属性 两 两 配对 ， 没 有 选取 最 
优 的 配对 方式 ， 下 一 步 将 对 提高 隐私 保护 度 进 行 更 加 深入 的 看 
1601 究 o 
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